Проблемът с „колапса на модела“: как липсата на човешки данни ограничава напредъка на AI
Използването на компютърно генерирани данни за образование на модели с изкуствен интелект рискува да ги накара да създават безсмислени резултати, съгласно ново проучване, което акцентира задаващите се провокации пред нововъзникващите технологии.
Водещи компании за изкуствен интелект, в това число OpenAI и Microsoft, тестваха потреблението на „ синтетични “ данни – информация, основана от системи за изкуствен интелект, с цел да образоват по-късно и огромни езикови модели (LLM) – защото те доближават границите на човешкия основан материал, който може да усъвършенства авангардната технология.
Изследване, оповестено в Nature в сряда, допуска, че потреблението на такива данни може да докара до бързо утежняване на моделите на AI. Един опит, употребяващ синтетичен входен текст за средновековната архитектура, се трансформира в полемика за зайци след по-малко от 10 генерации резултат.
Работата акцентира за какво разработчиците на изкуствен интелект са побързали да закупят обилие от генерирани от индивида данни за образование – и повдига въпроси какво ще се случи, откакто тези крайни източници бъдат изчерпани.
„ Синтетичните данни са невероятни, в случай че успеем да ги накараме да работят “, сподели Илия Шумайлов, водещ създател на проучването. „ Но това, което споделяме, е, че актуалните ни синтетични данни евентуално са неправилни по някакъв метод. Най-изненадващото нещо е какъв брой бързо се случват тези неща. “
Документът изследва наклонността на AI моделите да се срутват с времето заради неизбежното струпване и увеличаване на неточности от поредни генерации образование.
Скоростта на утежняването е обвързвана със сериозността на минусите в дизайна на модела, процеса на образование и качеството на употребяваните данни.
Ранните стадии на срутва нормално включват „ загуба на разновидност “, което значи, че болшинството субпопулации в данните стават прогресивно свръхпредставени за сметка на малцинствените групи. При колапс на късен стадий всички елементи от данните могат да станат безсмислени.
„ Вашите модели губят полза, тъй като са затрупани с всички неточности и неправилни схващания, въведени от предходните генерации – и самите модели “, сподели Шумайлов, който е направил работата в Оксфордския университет с сътрудници от Кеймбридж, Имперски лицей в Лондон, Единбург и Торонто.
Изкуствен разсъдък Защо компютърно основани данни се употребяват за образование на AI модели
Изследователите откриха, че проблемите постоянно се изострят от потреблението на синтетични данни, подготвени върху информация, създадена от предходни генерации. Почти всички рекурсивно подготвени езикови модели, които изследваха, започнаха да създават повтарящи се изречения.
В случая с джакбит първият въведен текст разглеждаше постройката на британска църковна кула през 14-ти и 15-ти век. В първото потомство на образованието изходът предлага информация за базилики в Рим и Буенос Айрес. Поколение пет се отклони към езиковия превод, до момента в който потомство девет изброява лагоморфи с разнообразни цветове на опашката.
Друг образец е по какъв начин AI модел, подготвен на личния си резултат, деформира набор от данни от изображения на породи кучета, съгласно съпътстваща публикация в Nature от Емили Венгер от университета Дюк в Съединени американски щати.
Първоначално елементарните типове като голдън ретривър ще преобладават, до момента в който по-рядко срещаните породи като далматините изчезват. И най-после, самите изображения на голдън ретривъри биха се трансформирали в анатомична неразбория, с елементи от тялото на неверното място.
Намаляването на казуса до момента не се е оказало елементарно, сподели Венгер. Една техника, която към този момент е внедрена от водещи софтуерни компании, е вграждането на „ воден знак “, който маркира наличие, генерирано от AI, за изключване от набори от данни за образование. Трудността е, че това изисква съгласуваност сред софтуерните компании, което може да не е практично или търговски жизнеспособно.
„ Едно от основните последствия от колапса на модела е, че има преимущество на първия в построяването на генеративни AI модели, “, сподели Венгер. „ Компаниите, които извличат данни за образование от интернет преди AI, може да имат модели, които по-добре показват действителния свят. “
Писмо в отговор на тази публикация: